4.4 指示チューニング
指示チューニング(instruction tuning)は、指示を含んだプロンプトと理想的な出力テキストの組で構成されるデータセットを使ったファインチューニングによって大規模言語モデルのアライメントを行う方法 (Kindle版 p.140)
TODO:アラインメントという部分は別途確認したい(大規模言語モデル講座 Day6 の範囲を確認)
#Instruction_Tuning
指示チューニング(のみ)
FLAN:Finetuned Language Models Are Zero-Shot Learners
既存の自然言語処理のデータセットを再利用して、指示チューニングのデータセットを構築 (Kindle版 p.140)
同様の方法で構築された大規模データセット
Natural Instructions:Cross-Task Generalization via Natural Language Crowdsourcing Instructions
Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
P3:PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts
後続:The Flan Collection: Designing Data and Methods for Effective Instruction Tuning
Flan-PaLM、Flan T5
指示チューニング + RLHF
InstructGPT:Training language models to follow instructions with human feedback
問題点
データセット
人手で構築する場合、高コスト
既存データセットを再利用する場合、出力の多様性を確保することが難しい
モデル
モデルの出力テキストにフィードバックを行えない
RLHFは行える